0
本文作者: 周蕾 | 2020-08-12 20:02 | 專題:金融聯(lián)邦學(xué)習(xí)公開課 |
2020年8月7日-9日,第五屆CCF-GAIR全球人工智能與機(jī)器人峰會,于深圳隆重舉辦。此次峰會由中國計算機(jī)學(xué)會主辦,香港中文大學(xué)(深圳)、雷鋒網(wǎng)聯(lián)合承辦,鵬城實驗室、深圳市人工智能與機(jī)器人研究院協(xié)辦。
在8月9日的「AI金融專場」中,《AI金融評論》邀請了6位最具代表性的頂尖AI金融專家,分享能夠代表未來10年風(fēng)向的智能技術(shù)方法論、產(chǎn)品邏輯和風(fēng)險管理理念。
首先登場的,是微眾銀行首席AI官楊強教授。聯(lián)邦學(xué)習(xí)和隱私計算,是今年所有金融巨鱷和科技寡頭們,都在重點布局的重要技術(shù)方向。作為這一領(lǐng)域的全球領(lǐng)軍人物,楊強也在會上帶來了他在前沿研究與產(chǎn)業(yè)應(yīng)用的真知灼見。
以下為楊強教授演講全文,雷鋒網(wǎng)AI金融評論做了不改變原意的整理:
先簡單介紹一下,微眾到現(xiàn)在有五年的歷史了,目前有大概兩億的個人用戶,還有將近百萬的小微企業(yè)用戶。這么短的時間可以獲得這么大的用戶群,應(yīng)該說很大程度上是取決于技術(shù)上的創(chuàng)新,包括云計算、大數(shù)據(jù)和人工智能。
其中一大亮點就是做連接,把不同的企業(yè)連接成一個生態(tài)。在這個過程當(dāng)中,AI是不可或缺的——正如今天的主題:AI到底在金融界能起到什么作用?
我們在很短的時間內(nèi)匯聚了很多人才,這些人才主要在四個方面把互聯(lián)網(wǎng)銀行大致規(guī)模化、模型化了。這四個團(tuán)隊把微眾銀行內(nèi)部和外部的業(yè)務(wù)過程、經(jīng)驗總結(jié)成了模型,這些模型可以供應(yīng)給其他行業(yè)一鍵下載、一鍵裝配,比如可以做營銷、服務(wù)、資產(chǎn)管理,把金融的前臺和后臺都包括了。
遷移學(xué)習(xí)和聯(lián)邦學(xué)習(xí)也是如今比較突出的兩項技術(shù),可以把整個金融業(yè)務(wù)再往前推進(jìn)一步。
我們可以把未來的銀行想像成從左到右的流程,最左邊的是獲客,這是任何企業(yè)都需要做的,要找到有價值的客戶,對客戶進(jìn)行安全評估、風(fēng)險信用評估,盡早發(fā)現(xiàn)可能的欺詐行為。
評估辦法之一是參考央行的征信數(shù)據(jù),但國內(nèi)很多人沒有征信數(shù)據(jù)(信用分),而且它只是一個維度,所以我們需要把維度變得更加豐富。
還有運營、監(jiān)管、對沉睡用戶的喚醒、7×24小時的客戶服務(wù),里面都有人工智能的影子。
在所有這些過程當(dāng)中有一個主線:如何能夠順利把盡量多的數(shù)據(jù)用起來。
我們聯(lián)邦學(xué)習(xí)的宗旨是數(shù)據(jù)不動模型動,這是一個做法,目標(biāo)就是數(shù)據(jù)可用不可見:數(shù)據(jù)可以用,但是別人的數(shù)據(jù)我是見不到的,所以可以把數(shù)據(jù)加入到生態(tài)里面來共同建模,一些散亂的小數(shù)據(jù)就可以成為虛擬的大數(shù)據(jù),這是我們的思想。
這個思想的初衷其實是,現(xiàn)在很多行業(yè)并沒有真正意義上的大數(shù)據(jù),像在金融里面有很多的數(shù)據(jù),其實是黑天鵝現(xiàn)象。比方說在反洗錢應(yīng)用中用于模型訓(xùn)練的洗錢案例,其實數(shù)量并沒有想象中那么多,還是屬于少數(shù)現(xiàn)象。這種數(shù)據(jù)拿它來訓(xùn)練,效果不是很好。
如果要用人工智能改變很多行業(yè)的話,其實都沒有高質(zhì)量、有標(biāo)注、不斷更新的數(shù)據(jù)。
第四范式公司在實踐當(dāng)中就發(fā)現(xiàn),如果要為大額貸款做一個營銷模型或風(fēng)控模型,數(shù)據(jù)往往是在上百例以內(nèi),這點樣本是沒有辦法訓(xùn)練一個好的深度模型的,所以他們的做法是從小額貸款到大額貸款做遷移學(xué)習(xí)。
每個人也都有手機(jī),手機(jī)都是聯(lián)到云端的,每個手機(jī)上的數(shù)據(jù),每時每刻都在更新,都有新的圖片、新的聲音、新的文章可以點擊,每個手機(jī)上的信息又是私密的,如何保證私密不傳出去,又能讓云端的大數(shù)據(jù)模型得到更新呢?
大家都熟悉無人車,比如有一千輛無人車,每輛車見到的數(shù)據(jù)都是有限的,我們能不能讓一千輛車的數(shù)據(jù)匯聚成一個虛擬的大數(shù)據(jù),同時又不暴露某個車看到的某個場景?
這就是分布性數(shù)據(jù)隱私、聯(lián)合建模的挑戰(zhàn)和需求——能不能把小數(shù)據(jù)聚合起來成為大數(shù)據(jù)?
問題是,現(xiàn)在監(jiān)管和社會的要求也非常嚴(yán)格,老百姓、社會對于技術(shù)工作者的要求是首先要保護(hù)隱私。政府也紛紛立法,比如歐洲建立了GDPR的數(shù)據(jù)法規(guī)。
我們國內(nèi)也有相關(guān)的保護(hù)法,在國家層面、地區(qū)層面,大家都在探索類似于、甚至更加嚴(yán)格于GDPR的數(shù)據(jù)法規(guī)。所以,簡單粗暴地把數(shù)據(jù)從A傳到B是違法的。
聯(lián)邦學(xué)習(xí),“邦”的意思是每個實體參與者地位都是相同的,無論大小,提供的價值才是他們存在的意義?!奥?lián)”就是用一種方式把它們聯(lián)起來,把隱私保護(hù)起來,同時又可以做一些有意義的事情。
用一個簡單的例子來解釋:假設(shè)用一只羊來類比機(jī)器學(xué)習(xí)模型,草就是數(shù)據(jù),我們希望羊吃了草以后能夠長大。
過去的做法是,把草買到一起來建立模型。比方說左邊的模型,左邊的箭頭是指向羊的。羊不動,但是草被購買到中心。相當(dāng)于簡單粗暴地獲取數(shù)據(jù),形成大數(shù)據(jù),來建立模型。
但我們希望能夠保護(hù)各自的隱私,所以讓草不動,讓羊動。這樣羊既能吃那個地方的草,主人又不知道到底吃了哪些草,久而久之羊就長大了——這個就是聯(lián)邦學(xué)習(xí)的新思路,就是讓草不出草場,本地主人無法知道羊吃了哪些草,但是羊還是長大了。
這個思想的關(guān)鍵是,當(dāng)我們的模型從一個地方傳到另外一個地方的時候,要傳盡量少的東西,同時傳的模型參數(shù)要被加密。圖右這些帶有一個框的W就是加密的意思,在本地加密,就只能在本地解密。
現(xiàn)在有一種穿透式的加密,把所有的加密包放在云端的時候,還可以對它進(jìn)行更新操作。比如對這個模型的集成更新,用集成學(xué)習(xí)。
谷歌就提出了“對模型聯(lián)邦平均”的做法,還有其他比較復(fù)雜的方法如神經(jīng)網(wǎng)絡(luò)等。
這種做法分兩種數(shù)據(jù)格式,一種格式是把樣本分割,放在終端,像圖左邊所表示的一樣,這是橫向聯(lián)邦。
還有一種是縱向聯(lián)邦,沿著特征把數(shù)據(jù)分成幾塊,每一塊屬于一個機(jī)構(gòu)。比如有兩家醫(yī)院,雙方數(shù)據(jù)可能在用戶上有很多重疊,可是在特征上面沒有很多重復(fù)。比如其中一家醫(yī)院做的是胸片,另外一家做的是核酸檢測,如果聯(lián)合就可以做更好的模型。
但出于隱私或利益等原因,他們不愿意互傳。這時就可以用如圖所示的方式,可以讓一方的數(shù)據(jù)在加密狀態(tài)下傳到另一方,參與模型更新,重復(fù)多次后得到最優(yōu)化的模型。有新用戶的時候也是通過加密傳輸,使中間結(jié)果得到運算。
縱向聯(lián)邦適合to B的場景,橫向聯(lián)邦適合to C的場景。谷歌用的比較多的是橫向,我們微眾用的比較多的就是縱向,當(dāng)然也有混合的用法,橫向中有縱向,縱向中有橫向。
在座的朋友們可能會問,聯(lián)邦學(xué)習(xí)跟以前的分布式AI、參數(shù)服務(wù)器、聯(lián)邦數(shù)據(jù)庫有什么區(qū)別?
過去,分布式AI和聯(lián)邦數(shù)據(jù)庫里面,數(shù)據(jù)的形態(tài)、分布、表征都是一樣的,是同類的。在聯(lián)邦學(xué)習(xí)里面,它們可以是異構(gòu)的,特征不一樣,分布也不一樣。從機(jī)器學(xué)習(xí)的角度來說,更加復(fù)雜。
同時,隱私保護(hù)是第一性的要求。過去,分布式AI和聯(lián)邦數(shù)據(jù)庫都是在一個數(shù)據(jù)的功能下,把數(shù)據(jù)分布在不同的數(shù)據(jù)庫,目的是并行計算、提高效率。但是現(xiàn)在數(shù)據(jù)本身屬于不同的屬主,所以需要做加密情況下保護(hù)隱私的計算。
可能還有聽眾想問,假如在多個參與者中,有一個參與者是壞人怎么辦?他在努力猜你的數(shù)據(jù),甚至在做數(shù)據(jù)的“下毒”,比如故意標(biāo)注一些錯誤的信息,就有可能把最終的模型變成對自己有利的方向,這也是有可能的。
如果原始數(shù)據(jù)是0,在OCR的場景下,另一方可以不斷地接受對方的梯度猜出對方的數(shù)據(jù)。如果百分之百地采用同態(tài)加密,用聯(lián)邦學(xué)習(xí)的方法,這種情況就不會發(fā)生。
聯(lián)邦學(xué)習(xí)的特點是引入了生態(tài)的維持機(jī)制,也就是經(jīng)濟(jì)學(xué)機(jī)制。如果要讓聯(lián)盟能夠持續(xù)下去,每個參與者都要感覺到作用和收益是成正比的,這就要引入經(jīng)濟(jì)學(xué)或者博弈論的機(jī)制來保證持續(xù)的平衡點。
總結(jié)一下,其中有很多工作要做,包括安全合規(guī),這是跟法律層面、跟政府層面合作;有防御攻擊,還有算法效率,技術(shù)應(yīng)用、還有激勵機(jī)制,要引入很多經(jīng)濟(jì)學(xué)家的工作。
舉個例子,因為聯(lián)邦學(xué)習(xí)是一個大的框架,所以有各種各樣落地的場景。比如推薦場景,大家用抖音、用頭條、用電商,這個時候都離不開個性化的推薦,但是推薦是數(shù)據(jù)越多越好。
如果數(shù)據(jù)來自不同方,過去是把數(shù)據(jù)買到本地來進(jìn)行推薦模型的建立??梢杂寐?lián)邦學(xué)習(xí)來解決這個問題,這個做法是“聯(lián)邦推薦”。最近我們把聯(lián)邦推薦的算法應(yīng)用在廣告推薦的場景上,用各方的數(shù)據(jù),最后廣告推薦的場景可以個性化,但是數(shù)據(jù)可以不出本地。
應(yīng)用在信貸和征信系統(tǒng),我們希望利用大數(shù)據(jù)建立360度的用戶和企業(yè)畫像,參加建立更好的征信。但是聯(lián)邦學(xué)習(xí)出現(xiàn)以前都沒有很好的技術(shù),大家都不參與到這個生態(tài)里面,擔(dān)心自己的數(shù)據(jù)被偷走。用了聯(lián)邦學(xué)習(xí)以后就可以做這個嘗試。
比如這個嘗試是一家銀行和票據(jù)公司的合作,數(shù)據(jù)都不出本地,銀行所提供的是這個用戶貸款的關(guān)鍵數(shù)據(jù),合作企業(yè)提供的是企業(yè)的交易數(shù)據(jù),這種交易數(shù)據(jù)為企業(yè)的活躍度提供了很多的信息,這兩個數(shù)據(jù)進(jìn)行聯(lián)邦,可以讓壞賬率大幅度降低。
應(yīng)用在計算機(jī)視覺,每個庫房都有很多攝像頭監(jiān)控本地的庫存,可以用不同視覺公司的監(jiān)控數(shù)據(jù)進(jìn)行供應(yīng)鏈聯(lián)邦。
更多跨領(lǐng)域的應(yīng)用,比如監(jiān)管和銀行、互聯(lián)網(wǎng)和電商、互聯(lián)網(wǎng)和醫(yī)院,都可以進(jìn)行聯(lián)邦。
建立這樣一個生態(tài),離不開行業(yè)標(biāo)準(zhǔn)。我們推進(jìn)建立的IEEE國際標(biāo)準(zhǔn)這個月也會出臺,國家層面也有標(biāo)準(zhǔn)。我們也推出了開源軟件FATE。
我用微眾銀行的典型案例進(jìn)行總結(jié),剛才說的聯(lián)邦技術(shù)貫穿了所有前臺和后臺。比如智能營銷,引入聯(lián)邦學(xué)習(xí)以后,可以把不同的數(shù)據(jù)源結(jié)合起來,讓營銷提高點擊率。
特別受關(guān)注的是點擊之后用戶有沒有轉(zhuǎn)化、有沒有變成你的用戶,這個過程需要更多的數(shù)據(jù)支持,這些數(shù)據(jù)往往來源于合作者,利用聯(lián)邦學(xué)習(xí)的效果可以大幅度提高20%以上。
反欺詐方面,可以在人臉識別、語音識別方面都可以大幅度提高效率。
風(fēng)控方面,也是利用大數(shù)據(jù)把金融公司和非金融公司聯(lián)成生態(tài),大家在這個生態(tài)里面進(jìn)行數(shù)據(jù)價值的交易。
還可以利用另類數(shù)據(jù),比如把衛(wèi)星數(shù)據(jù)、電信數(shù)據(jù)、非傳統(tǒng)財報數(shù)據(jù)聯(lián)合起來,可以實時為投資者服務(wù)。
如何喚醒沉睡的、有價值的用戶?也可以用聯(lián)邦學(xué)習(xí)識別這個客戶有沒有重新跟你合作的意愿。我們的經(jīng)驗是在當(dāng)前這個經(jīng)濟(jì)形勢下,是非常好的金融場景。
7×24小時的機(jī)器人服務(wù),微眾現(xiàn)在有98%以上是機(jī)器人在做后臺服務(wù),包括對話系統(tǒng)、客戶服務(wù)、服務(wù)當(dāng)中的監(jiān)管、質(zhì)量檢測、智能監(jiān)控、反洗錢,把細(xì)碎的小數(shù)據(jù)聯(lián)系起來,變成可用數(shù)據(jù)。
以上就是我們的經(jīng)驗和總結(jié),謝謝大家。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。